Técnica estatística utilizada para modelar a relação entre uma variável dependente binária (resposta) e uma ou mais variáveis independentes (explicativas).
Ajuda a entender a influência das variáveis independentes na variável dependente.
Permite prever a probabilidade de ocorrência de um evento.
Variáveis
Variáveis independentes: são as variáveis explicativas ou preditoras que são usadas para prever ou explicar a variação na variável dependente. Elas são representadas por \(x_1, x_2, x_3, \ldots, x_n\) e podem ser contínuas ou categóricas.
Variável dependente: representa o evento ou resultado a ser previsto. Pode assumir apenas dois valores: 0 (não ocorre o evento) ou 1 (ocorre o evento).
Por que usar a regressão logística em vez da regressão linear?
A regressão linear é amplamente utilizada para modelar a relação entre variáveis independentes e uma variável dependente contínua.
No entanto, quando a variável dependente é binária, a regressão linear não é apropriada, pois ela pode resultar em previsões fora do intervalo desejado de 0 a 1.
Função Logit e Transformação Logística
Por que usar a regressão logística em vez da regressão linear?
A regressão logística transforma a equação da regressão linear em uma função que fornece a probabilidade de ocorrência do evento.
A transformação ocorre utilizando a função logit, que é aplicada à equação da regressão linear.
A função logit é definida como o logaritmo da razão entre a probabilidade de ocorrência do evento e a probabilidade de não ocorrência.
Após a aplicação da função logit, a equação se torna linear em termos da log-odds (logaritmo da razão de chances). A log-odds é a transformação do valor de y para a escala logit, que varia de menos infinito a mais infinito.
Após a aplicação da função logit, é necessário reverter essa transformação para obter a probabilidade de ocorrência do evento. Essa reversão é feita utilizando a função sigmoidal, que converte o valor resultante da função logit em uma probabilidade entre 0 e 1.
A equação da regressão linear é transformada na equação da regressão logística, que permite estimar a probabilidade de ocorrência do evento com base nas variáveis independentes. Essa probabilidade é então utilizada para tomar decisões ou realizar previsões em problemas de classificação binária.
Suponha que um estudo esteja investigando a probabilidade de ocorrência de uma determinada doença em uma população de animais.
As variáveis independentes são o tipo de habitat (floresta, savana), a presença de água (sim, não) e a temperatura média do ambiente.
A variável resposta seria a ocorrência (1) ou não (0) da doença nos animais da população.
Modelo da regressão logística
# Realizar a regressão logísticamodelo <-glm(doenca ~ habitat + agua + temperatura, data = dados, family =binomial(link ="logit"))# Visualizar os resultadossummary(modelo)
Call:
glm(formula = doenca ~ habitat + agua + temperatura, family = binomial(link = "logit"),
data = dados)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.07601 1.58201 -0.680 0.496
habitatFloresta 0.75299 0.64323 1.171 0.242
aguaSim -4.05929 0.69591 -5.833 5.44e-09 ***
temperatura 0.09190 0.06228 1.476 0.140
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 125.374 on 99 degrees of freedom
Residual deviance: 68.166 on 96 degrees of freedom
AIC: 76.166
Number of Fisher Scoring iterations: 5
Interpretando os coeficientes da regressão logística
Razão de chances: Uma maneira comum de interpretar os coeficientes em regressão logística é calcular a razão de chances (odds ratio).
Ela é calculada como a razão entre as chances do evento ocorrer em um determinado grupo comparado a um grupo de referência.
Interpretando os coeficientes da regressão logística
# Obter as razões de chanceslibrary(gtsummary)tbl_regression(modelo, exponentiate = T)
Characteristic
OR
95% CI
p-value
habitat
Caverna
—
—
Floresta
2.12
0.61, 8.00
0.2
agua
Não
—
—
Sim
0.02
0.00, 0.06
<0.001
temperatura
1.10
0.97, 1.24
0.14
Abbreviations: CI = Confidence Interval, OR = Odds Ratio
Interpretando as ORs
Habitat (referência: Caverna):
Indivíduos na Floresta apresentam 112% mais chances do desfecho (OR = 2,12) em comparação às cavernas.
Entretanto, o intervalo de confiança é amplo (0,61–8,00) e o resultado não é estatisticamente significativo (p = 0,20), indicando alta incerteza.
Água (referência: Não):
A presença de água está associada a uma redução de aproximadamente 98% nas chances do desfecho (OR = 0,02).
O efeito é estatisticamente significativo (p < 0,001), indicando forte evidência de associação negativa.
Temperatura:
Cada aumento de uma unidade na temperatura está associado a um aumento de cerca de 10% nas chances do desfecho (OR = 1,10).
No entanto, o intervalo de confiança inclui ausência de efeito (0,97–1,24) e o resultado não é significativo (p = 0,14).
Pressupostos da regressão logística
Desfecho binário: a variável dependente assume dois estados.
Independência das observações: as observações não devem ser correlacionadas.
Linearidade no logito: relação linear entre os preditores e o logaritmo das chances.
Ausência de multicolinearidade: preditores não altamente correlacionados.
Ausência de outliers influentes: nenhuma observação deve exercer influência excessiva no ajuste do modelo.
Seleção de variáveis na regressão logística
Critérios estatísticos: seleção baseada na relevância das variáveis no modelo.
Valor-p: indica significância estatística dos preditores.
AIC (Akaike Information Criterion): equilibra qualidade do ajuste e complexidade; valores menores são preferíveis.
BIC (Bayesian Information Criterion): penaliza mais fortemente modelos complexos, favorecendo soluções mais parcimoniosas.
Seleção de variáveis na regressão logística
Seleção por etapas: procedimento iterativo de inclusão ou exclusão de variáveis.
Stepwise: combina seleção progressiva (forward) e regressiva (backward).
Forward: adiciona variáveis conforme melhoria do ajuste.
Backward: remove variáveis conforme critérios de ajuste.
📚 Referências bibliográficas
BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.
DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.
HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.